ЗАДАЧА ПРЕДСКАЗАНИЯ МНОГОМЕРНОЙ
ПЕРЕМЕННОЙ
Г.С. Лбов, Т.А. Ступина
Институт математики СО РАН,
Новосибирск, Россия
Abstract — This work is devoted to
problem of prediction multidimensional variable. This problem is generalization of
well-known problem of multi-response regression in case of independent and goal features
are multidimensional and heterogeneous. For this time such tusk was formulated
in work [1].
Пусть имеется генеральная
совокупность объектов
, для которой
определена произвольная вероятностная мера P(
).
Каждый объект
может быть охарактеризован
значениями переменных
а также
значениями так называемых
целевых (предсказываемых) переменных
то есть каждому
путем проведения измерений
могут быть сопоставлены значения
переменных
. Данные переменные могут
быть произвольных типов (вещественные, целые,
порядковые, номинальные, бинарные).
Рассматриваемая задача состоит в том,
чтобы для произвольного объекта
из
по известным значениям переменных
предсказать
значения переменных
на основе анализа
имеющейся эмпирической информации. Заметим, что
задачи построения решающей функции
распознавания и регрессионной функции являются
частным случаем рассматриваемой задачи.
Обозначим через
множество допустимых
значений переменной
, через
множество допустимых значений переменной
,
.
Тогда
может рассматриваться как
точка в пространстве
,
точка в пространстве
,
- точка в
пространстве
. Заметим, что пространство
в
общем случае является разнотипным и, не теряя
общности, может быть разложено в прямое
произведение дискретного
и непрерывного
подпространств, тогда
, где
.
Поскольку значения всех переменных
могут быть измерены для любого
, то
существует отображение из
в
,
и учитывая существование вероятностной меры
в пространстве
определяется
вероятностная мера
.
Введем в пространстве
меру
следующим образом.
Поскольку любая область
дискретно-непрерывного пространства
может быть представлена как
, где
-
проекция
на
,
- точка из
,
-соответствующая
область
в
, меру произвольной
подобласти естественно положить равной
,
где
- лебегова мера множества
.
Предположим, что отображение
таково, что существует
- плотность меры
относительно меры
, т.е. для любого измеримого
подмножества
пространства
выполняется
Применяя формулу Байеса, получаем
.
Таким образом,
представляет
собой условную плотность распределения в
пространстве
при условии, что значения
переменных
равны
.
Под задачей предсказания будем
понимать восстановление условной плотности
на основе выборки, то есть построение некоторой оценки
.
Под выборкой будем понимать множество
, где
- набор значений переменных,
измеренных для объекта
случайным
образом выбранного
из совокупности
.
Поскольку даже в случае дискретных
характеристик, как правило,
далеко не для каждой точки
пространства
имеются экспериментальные данные, а
в непрерывном случае выборочные точки в
образуют
множество меры нуль, очевидна необходимость экстраполяции
экспериментальных данных на другие точки пространства переменных.
Поэтому будем полагать условное распределение
одним и тем же для всех
, принадлежащих
области
,
из некоторого
разбиения
пространства
,
Класс
-
множество таких разбиений, при которых
где
- интервал,
если
- переменная с
упорядоченным множеством значений, и
-
произвольное подмножество из
, если
-
номинальная переменная, т.е. переменная с
конечным неупорядоченным множеством значений.
Распределение
для
обозначим через
.
После того, как фиксировано разбиение
,
условное распределение
может быть
восстановлено классическими методами (например,
путем аппроксимации гистограммой), поэтому
главная проблема состоит в эффективном
разбиении
на подобласти.
Эффективность понимается с точки зрения
предсказания
по известным
.
Интуитивно понятно, что эффективность такого
предсказания должна зависеть от информативности
полученного условного распределения
.
Обычно в качестве меры информативности
распределений используют энтропийную меру,
однако данная мера не учитывает метрические
свойства переменных и не различает
упорядоченные и неупорядоченные шкалы.
Определим меру информативности,
свободную от указанных недостатков. При этом под
информативностью распределения будем понимать
расстояние между данным распределением
и равномерным распределением
на
множестве
.
В дальнейшем любые подмножества
и
будем представлять
следующим образом:
,
;
,
.
Критерием качества разбиения
множества
на
подмножеств
будем называть величину
, где
-
расстояние между распределениями
и равномерным распределением
,
. Задача состоит в том, чтобы
найти такое разбиение
, при котором
.
Поскольку распределение
неизвестно, вместо него будем использовать
оценку
.
Для этого используется выборка
,
; 
- объем
выборки,
,
,
,
. На основе выборки
необходимо найти решающую
функцию
, дающую отображение
.
Оценка качества разбиения множества
на
подмножеств
представляется следующим образом:
.
Наилучшим разбиением
будем
считать разбиение, при котором
.
Отсюда следует, что при любом
фиксированном
для каждого подмножества
необходимо максимизировать величину
.
Обозначим через
класс подмножеств
таких, что
,
. Очевидно, что чем меньше
мощность множества
,
тем больше оценка
расстояния распределения
от равномерного
распределения
. Найдем
. Используя
нормировку, мощность
будет равна
следующему выражению:
,
где
- проекция множества
на
, а
- множество
минимальной мощности, включающей в себя точки
,
.
Таким образом, чем меньше величина
,
тем больше расстояние
Для
фиксированного разбиения
решающая функция
представляется следующим образом: если
,
то
,
Разбиение
должно удовлетворять следующему ограничению:
,
где
- некоторый параметр,
определяющий надежность предсказания. Данный
алгоритм предсказания многомерной разнотипной
переменной реализован программно.
Литература
1. Лбов Г.С., Неделько В.М.,
Восстановление условного распределения на
основе экспериментальных данных. \\ Межвузовский
сборник “Информатика и процессы управления”,
Красноярск 1997, стр. 95-103.